利用 视觉 情境 范式 揭示 口语 加 工 的 时 间 进 程 


魏 一 开 北京 大 学 对 外 汉语 教 


摘要 视觉 情境 范式 是 一 种 通过 i 


工 的 眼 动 实验 范式 。 该 范式 运用 


动 理论 、 基 于 目标 的 连接 假设 理论 等 )， 这 些 连接 假设 在 眼 动 于 


视觉 情境 范式 所 获取 的 数据 能 够 为 口语 加 工 提供 精确 


起 了 有 意义 的 关联 。 使 


育 学 院 


ÉR MEARE] 


于 语言 理解 类 


常用 的 数据 分 析 方 法 包括 


证 据 。 


: 时 间 兴 趣 区 内 六 


该 范式 为 研究 词汇 语音 识别 、 句法 解 上 收 、 语 义理 解 、 


et 


Gh 


口语 加 工 ; 


上 的 注视 轨迹 来 研究 实时 口语 加 
究 的 理论 基础 是 眼 动 连接 假设 (如: 协同 互 


进程 之 间 建 立 


的 时 间 信息 ， 


E 视 比例 均值 分 析 、 分 叉 点 分 析 、 生 长 曲线 分 析 等 。 


a RL 
语 篇 语 | 


关键 词 视觉 情境 范式 ， 了 眼 动 追踪 ， 口 语 加 工 


语言 加 工 的 时 间 进 程 问 题 


直 是 心理 语言 学 领域 的 核心 议题 之 一 ,探讨 这 一 问题 有 三 


信息 加 工 等 问题 提供 了 关键 性 


= 
ZS 


WE. 


重要 意义 : 首先 ， 不 同 层 


的 语言 信息 ( 语 


童 乱 (语言 输入 、 视 觉 环 境 、 世 界 知识 等 ) 在 何 时 被 认 知 系统 加 工 处 到 


`H. 
Wa 


的 


— 


SEAR ASAD 


语义 、 句 法 、 语 篇 、 


日 、 


E 对 于 语言 理解 模型 的 奸 


构 至 关 重 要 。 例 如 ，McRae 等 人 (1998) 的 基于 约束 的 语言 加 工 模型 (constraint-based model), 


就 是 根据 歧义 句 理解 的 时 间 进 程 


语言 
wa 


HT 


得 


、 二 语 加 工 以 及 老年 人 语言 
Re 


和 多 


音 息 ， 揭 示 各 个 层 


O 


语 加 工 的 问题 。 


正 据 提出 的 。 其 次 ， 研 究 影响 语言 到 
水 平 . 认 知 能 力 等 ) 如 何 起 作用 也 需要 语言 加 工 的 时 间 进 程 信息 ， 
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工 的 实验 范式 (Allopenna et al., 1998; Salverda & Tanenhaus, 2018)。 随 着 60 年 代 末 了 眼 动 追踪 
的 实现 ， 即 时 记录 眼 动 轨迹 以 及 自动 处 理 眼 动 数据 成 为 可 能 。 
利用 眼 动 技术 进行 的 书面 阅读 研究 


70 年 代 中 期 ， 


已 取 得 大 量 进展 (综述 见 : Rayner, 1978)。 与 此 同时 , Cooper 


(1974) 第 一 次 尝试 使 用 眼 动 追踪 技术 对 口语 理解 进行 测量 。 这 项 早期 研究 首次 将 听 者 对 视觉 
物体 的 注视 与 语言 加 工 建立 了 联系 。1995 年 Tanenhaus 等 人 在 《科学 》 上 发 文 ， 阐释 了 如 何 
利用 眼 动 追踪 技术 揭示 歧义 句 的 加 工 过 程 , 视觉 情境 范式 (由 Allopenna et al., 1998 定名 ) 才 开 
始 大 量 被 应 用 于 口语 加 工 研 究 , 成 为 心理 语言 学 、 认 知心 理学 领域 最 重要 的 研究 手段 之 一 ( 即 
丽 景 等 , 2009; 林 桐 ， 王 娟 , 2018). 

本 文 主要 阐释 了 如 何 利 用 眼 动 视觉 情境 范式 探究 口语 加 工 的 时 间 进 程 .为 了 阐明 这 一 问 
题 ， 本 文 将 首先 介绍 眼 动 实验 范式 中 的 连接 假设 , 将 视觉 场景 中 的 眼 动 轨迹 与 语言 的 理解 过 
程 建 立 起 联系 , 并 且 充分 说 明 视 觉 情境 范式 在 任务 及 数据 上 有 哪些 时 间 性 的 特点 ， 以 及 如 何 
利用 这 些 特 点 进行 数据 分 析 ; 进而 以 口语 加 工 的 时 间 进 程 为 主线 ， 综 述 近 20 多 年 来 使 用 该 
范式 的 研究 在 语音 、 语 义 、 句 法 、 语 篇 与 语 用 加 工 等 方面 的 实证 发 现 ， 进 一 步 说 明 这 一 高 时 


间 敏 感性 范式 在 口语 加 工时 间 进 程 研 究 中 的 贡献 。 


1. 眼 动 轨迹 与 语言 加 工 进程 的 连接 假设 
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视觉 情境 范式 眼 动 研究 方法 的 理论 基础 是 连接 假设 (linking hypotheses)， 这 类 假设 将 眼 
动 轨迹 与 口语 理解 的 认 知 过 程 建 立 起 了 联系 (Allopenna et al., 1998; Tanenhaus et al., 2000)。 具 


体 来 说 ， 当 听 者 处 理 口 语 信息 时 ， 会 将 语言 所 描述 的 情景 形成 动态 的 心理 表征 (mental 
representation); 而 理解 者 对 心理 表征 中 特定 实体 的 关注 会 随 着 语言 信息 的 输入 而 变化 一 一 相 
应 地 ， 他 们 在 视觉 空间 中 的 注视 点 也 会 随 之 移动 (Altmann & Kamide, 2007)。 这 种 注视 的 聚 
集 和 移动 ,伴随 着 瞳孔 位 置 的 改变 。 通 过 眼 动 追踪 手段 ， 瞳 孔 位 置 移动 的 轨迹 可 以 被 有 效 测 
© 量 , 进而 揭示 口语 加 工 的 时 间 进 程 。 过 去 二 十 年 间 ， 学 界 提 出 了 诸多 反映 眼 动 与 口语 加 工 之 
间 关 系 的 具体 连接 假设 理论 ， 用 于 阐释 视觉 注意 如 何 被 分 配 到 指 代 物 体 之 上 ( 见 综述 
Magnuson，2019)。 本 文 总 结 了 其 中 比较 有 影响 力 的 三 种 连接 假设 理论 ， 进 一 步 阐 明 将 视觉 

情境 范式 应 用 于 口语 加 工 研究 的 理论 基础 .这些 连接 假设 虽 未 直接 就 具体 语言 元 素 加 工 的 时 
间 进 程 进行 界定 ,但 其 假设 中 包含 了 口语 加 工 的 若干 阶段 , 是 探讨 加 工时 间 进 程 的 前 提 基 础 。 
Knoeferle 和 Crocker (2006, 2007) 提 出 的 协同 互动 理论 (coordinated interplay account) 将 基 

于 视觉 情境 的 口语 理解 分 为 三 个 主要 阶段 ，(1) 在 原 有 的 语句 结构 中 整合 新 输入 的 词 ， 形 成 
新 的 语句 理解 ， 并 基于 这 一 新 信息 和 原 有 的 语言 信息 、 相 关 世 界 知识 ， 共 同形 成 对 后 面 语句 
的 预测 ，(2) 在 包含 之 前 视觉 场景 的 工作 记忆 中 ， 搜 寻 词 语 所 指 代 的 物体 或 者 是 基于 第 一 阶 
段 信息 可 以 预测 到 的 物体 ，(3) 将 语言 输入 (名 词 、 动 词 等 ) 与 视觉 场景 中 的 物体 、 动 作对 应 ， 


基于 视觉 场景 信息 修正 之 前 形成 的 语句 理解 ， 并 形成 新 的 预测 (Knoeferle & Crocker, 2006, 


2007; Pyykkönen-Klauck & Crocker, 2016)。 值 得 注意 的 是 ， 这 三 个 进程 虽然 在 协同 互动 理论 
中 依次 呈现 , 但 该 理论 并 不 排斥 三 个 进程 在 加 工时 间 上 有 交 蔷 或 者 同时 发 生 的 可 能 性 。 协同 
互动 理论 凸显 了 视觉 场景 信息 对 于 口语 理解 的 重要 性 ; 而 且 尽 管 当 视 觉 场景 消失 后 ,这 些 情 
景 在 工作 记忆 中 会 逐渐 消退 ， 但 关于 情景 的 记忆 仍然 对 后 续 句 子 加 工具 有 显著 的 影响 


(Knoeferle & Crocker, 2007)。 
Altmann 和 Mirkovié (2009) 提 出 了 男 一 种 连接 假设 理论 ， 这 一 理论 同样 也 认同 语句 加 工 


受到 语言 信息 (如 : 实时 语言 输入 、 语 境 信息 ) 和 非 语言 信息 (如 : 视觉 场景 、 世 界 知 识 ) 的 共 


司 影响 。 但 不 同 于 Knoeferle 和 Crocker (2006, 2007) 的 协同 互动 理论 ，Altmann 和 Mirkovié 


(2009) 认 为 处 理 视觉 场景 信息 与 理解 语言 输入 的 过 程 在 心理 表征 和 处 理 时 间 上 都 是 无 法 分 


> HEN) 因为 语言 信息 和 非 语言 信息 都 存储 在 同一 套 系统 中 ， 共 同 构成 了 对 情景 的 动态 表 
M 

© 征 。 当 上 听 者 接收 到 某 一 信息 时 ， 关 于 客体 的 表征 (包括 与 此 客体 相关 的 体验 、 知 识 等 ) 会 被 激 
Q 活 。 而 随 着 听 者 不 断 接 收 不 同 来 源 的 信息 (语言 输入 、 视 觉 场景 、 世 界 知识 等 )， 关 于 客体 的 


表征 就 会 不 断 变化 。 当 不 同 来 源 的 信息 出 现 重合 时 ， 客 体 表 征 的 激活 就 会 加 强 。 这 一 表征 系 
统 的 不 同 状态 体现 在 心智 表征 (mental representation) 层 面 就 是 注意 力 的 分 配 ， 而 注意 力 的 分 
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影响 了 眼 动 轨迹 。 换 言 之 , 伴随 语句 输入 , 受 试 者 对 视觉 物体 的 注视 在 时 间 上 的 变化 轨迹 ， 
是 由 包含 语言 信息 、 语 境 信息 、 视 觉 场 景 、 世 界 知识 等 的 一 套 共 同 表征 系统 所 影响 并 驱动 的 。 
在 该 理论 假设 框架 下 , 不 同 来 源 的 信息 对 口语 加 工会 产生 即时 影响 , 也 会 迅速 反映 在 眼 动 轨 
oh 
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以 上 两 种 连接 假设 均 基于 语言 理解 视角 , 将 口语 加 工 过 程 中 的 眼 动 注视 变化 看 做 是 语言 
输入 信息 与 视觉 信息 共同 作用 的 结果 。 这 两 个 假说 都 将 语言 加 工 看 做 是 一 项 独立 的 任务 , 与 
实验 过 程 中 的 行为 任务 目标 无 关 。 然而 , 此 类 基于 语言 理解 视角 的 连接 假设 未 涉及 完成 任务 
所 需要 的 动作 本 身 对 语言 指 代 加 工 的 影响 (Chambers et al., 2004)， 同 时 也 未 考虑 到 在 视觉 搜 
寻 中 眼 动 本 身 就 和 行为 任务 的 目标 紧密 相关 一 一 即 受 试 者 会 更 多 地 注视 与 自己 行为 目标 相 
关 的 物体 。 为 了 更 好 地 解释 语言 加 工 与 眼 动 的 关系 ，Salverda 等 人 (2011) 提 出 了 基于 目标 的 
连接 假设 理论 (goal-based linking hypothesis)， 将 “任务 目标 ”这 一 新 维度 纳入 眼 动 连接 假设 。 
不 同 于 基于 语言 理解 视角 的 连接 假设 , 基于 目标 的 连接 假设 理论 认为 不 仅 语 境 、 语言 输入 等 
可 以 对 语言 加 工 形成 约束 (constraint)， 任 务 目 标本 身 也 可 以 作为 约束 一 一 与 执行 任务 目标 直 
接 相关 的 视觉 物体 , 会 吸引 更 多 眼 动 注 视 ; 而 与 目标 执行 无 关 的 物体 则 不 会 。 该 连接 假设 理 
论 认为 , 视觉 情境 下 的 口语 加 工 过 程 首先 包含 了 一 项 基础 任务 , 就 是 把 语言 输入 信息 与 视觉 
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场景 中 可 供 选择 的 物体 对 应 ， 而 眼 动 注视 服务 于 这 一 任务 目标 ， 用 于 锁定 可 能 的 指 代 物 体 ; 


不 符合 可 供 性 (affordance) 的 物体 则 很 少 被 注视 。 例 如 ， 在 昕 到 put the cube into the can 这 一 
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(Chambers et al., 2004). Salverda 等 人 (2011) 认 为 ， 额 外 的 任务 如 点 击 物体 、 移 动物 体 等 ， 共 
同 构成 了 口语 加 工 任务 中 的 任务 目标 结构 ， 并 且 影 响 了 眼 动 注视 。 例 如 ， 当 受 试 者 带 着 判定 
句子 正 误 任 务 听 句 子 时 , 会 比 无 判定 任务 情况 下 听 同 样 的 句子 展现 出 更 早 、 更 显著 的 预测 性 


注视 (Altmann & Kamide, 1999)， 在 时 间 进 程 上 更 快 地 锁定 指 代目 标 。 基 于 目标 的 连接 假设 


为 细 化 、 层 级 化 语言 加 工 过 程 中 的 任务 目标 结构 提出 了 新 的 要 求 。 
利用 眼 动 视觉 情境 范式 进行 的 口语 加 工 研 究 以 连接 假设 为 基本 前 提 , 根据 利用 视觉 信息 


的 情况 ， 可 以 分 为 两 个 主要 研究 方向 。 第 一 类 研究 将 视觉 场景 作为 呈现 物体 的 布景 心理 


征 中 对 特定 指 代 对 象 的 注意 被 投射 在 视觉 场景 中 , 听 者 据 此 形成 对 指 代 物 体 的 注视 ; 而 其 注 
视 布景 上 的 物体 所 形成 的 眼 动 轨迹 , 揭示 了 不 同 的 语言 成 分 如 何 被 实时 加 工 (例如 : Cooper, 


1974; Cozijn et al., 2011; Kaiser, 2016)。 第 二 类 研究 则 将 视觉 信息 也 作为 一 种 语 境 约束 ， 主 要 


探索 视觉 环境 中 的 信息 (如 : 候选 物体 个 数 、 物 体 大 小 对 比 、 所 描绘 的 事件 动作 等 ) 本 身 对 语 
言 加 工 产生 的 影响 (例如 : Chambers et al., 2002; Knoeferle et al., 2005; Tanenhaus et al., 1995). 
这 两 类 研究 采用 的 任务 类 似 , 但 是 在 连接 假设 的 理论 层面 , 第 一 类 研究 强调 了 理解 视觉 场景 
言 息 与 理解 口语 输入 信息 这 两 个 过 程 的 共 时 性 和 不 可 分 割 性 ; 第 二 类 研究 则 将 视觉 场景 信息 


加 工作 为 一 个 相对 独立 的 过 程 , 强调 视觉 场景 本 身 在 口语 加 工 过 程 中 的 作用 。 而 眼 动 加 工 领 
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或 最 新 的 趋势 是 开始 关注 任务 目标 对 语言 加 工 的 潜在 作用 。 尽 管 纳入 了 目标 维度 的 连接 假设 


[U 


经 完成 了 初步 的 理论 建构 ， 但 目前 针对 不 同 任务 目标 下 加 工效 应 对 比 的 研究 仍然 是 空 


2. 视觉 情境 范式 的 特点 
2.1 范式 与 任务 


典型 的 视觉 情境 范式 实验 通常 包含 以 口语 形式 呈现 的 语言 指令 和 以 视觉 刺激 形式 出 丙 
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的 物体 (在 真实 世界 中 或 者 
点 的 位 置 被 眼 动 仪 实时 记录 并 月 
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已 脑 屏幕 上 )。 受 试 者 在 理解 口语 指令 的 同时 ， 在 视觉 物体 上 注视 
于 后 续 分 析 ( 见 图 1)。 视 觉 刺 激 图 片 一 般 会 先 于 语言 指令 出 


ao 


现 ， 并 有 一 定 的 预 视 时 间 ， 语言 指令 以 相对 固定 的 播放 速度 呈现 。 前 人 研究 中 发 现 ， 图 片 复 


杂 度 、 预 视 时 长 、 语 言 指令 播放 速度 、 任 务 指 令 类 型 (是 否 明确 告知 受 试 者 需要 预测 目标 物 ) 


等 因素 都 会 对 上 


R 动 结果 产生 一 定 的 影响 (Huettig & Guerra, 2019; Ferreira et al., 2013). 


视觉 情境 范式 主要 包括 两 种 不 同 的 实验 任务 : 一 是 主动 任务 (基于 动作 的 实验 任务 )， 即 
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要 求 受 试 者 对 语言 指令 做 出 行为 上 的 反应 (如 : 获取 、 挪 动 点 击 物体 ; 见 Hanna & Tanenhaus, 
2004; Tanenhaus et al., 1995); 二 是 被 动 任务 ( 听 - 看 任务 )， 即 受 试 者 仅 需要 听 语 言 指令 、 看 图 
片 或 者 情景 ， 不 需要 在 行为 上 做 出 反应 (Altmann & Kamide, 1999; Knoeferle et al., 2005)。 关 
于 两 种 任务 的 区 别 ，Salverda 等 人 (2011) 指 出 在 主动 任务 型 视觉 情境 范式 实验 中 ， 获 取 、 挪 
动 、 点 击 物体 之 前 受 试 者 会 将 大 量 的 注视 投向 目标 物体 ; 而 被 动 任务 型 实验 不 存在 这 样 的 注 
视 模 式 一 一 此 因素 可 能 会 导致 两 种 实验 任务 下 眼 动 模式 的 差异 。Pyykkonen-Klauck 和 
Crocker(2016) 综 述 对 比 了 采用 两 种 任务 类 型 的 眼 动 实验 结果 , 认为 主动 任务 中 一 些 语言 效应 
(如 : 词 频 效应 ) 在 眼 动 指标 上 表现 得 更 为 敏感 ， 受 试 者 能 更 快 地 锁定 目标 物体 ， 显 示 出 更 迅 
速 实时 的 语言 理解 过 程 。 而 听 句 子 看 图 的 被 动 任务 型 视觉 情境 范式 实验 , 因 不 需要 受 试 者 完 
成 额外 任务 ， 相 对 而 言 具有 更 好 的 生态 效 度 (Huettig et al., 2011a); 而 且 可 以 被 用 于 检验 哪些 
口语 加 工效 应 是 在 语言 与 视觉 交互 中 普遍 存在 的 ， 哪 些 仅 在 特殊 的 实验 任务 下 才 存 在 


(Huettig et al., 2011b)。 


视觉 情境 范式 有 两 个 主要 的 变 体 一 一 拼 词 呈 现 范式 (printed-word paradigm, Huettig & 


McQueen, 2007) 与 空 屏 呈现 范式 (blank screen paradigm, Altmann, 2004)。 拼 词 呈现 范式 中 ， 
视觉 刺激 图 片 被 替换 为 出 现在 屏幕 上 的 词语 。 受 试 者 会 听 到 与 该 词 相关 的 语音 输入 , 同时 其 
在 每 个 字母 上 的 眼 动 注视 轨迹 被 记录 下 来 用 于 分 析 。 拼 词 呈 现 范式 可 以 用 于 检验 语音 的 识别 
过 程 、 研 究 正字 法 信息 如 何 被 实时 加 工 等 问题 。 空 屏 呈 现 范式 主要 用 于 揭示 短期 记忆 在 实时 
语言 加 工 中 的 作用 。 在 视觉 刺激 图 片 呈现 几 秒 后 ， 呈 现 空白 屏幕 (一 般 1 秒 )， 然 后 播放 语音 
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与 后 续 的 语言 加 工 。 
2.2 数据 与 变量 


视觉 情境 范式 实验 数据 分 析 中 的 常用 因 变 量 为 注视 和 了 眼 跳 。 


令 。 采 用 该 范式 的 实验 可 以 证 明 ， 
指令 仍然 会 看 向 相关 物体 原来 所 在 的 位 置 (Knoeferle & Crocker, 2007)。 空 屏 呈 现 范式 为 心 
?表征 提供 了 依据 : 心智 表征 形成 后 ， 可 以 不 依赖 视觉 刺激 ， 而 暂时 存储 在 短期 记忆 中 ， 参 


即使 在 视觉 刺激 图 片 中 的 物体 消失 之 后 ， 受 试 者 听 到 语 


kt 中 最 常用 的 注视 指标 是 注 


视 比例 Gixation proportion)， 即 在 指定 时 间 窗 口内 落 入 某 一 兴趣 区 的 注视 点 在 所 有 试 次 中 的 
比例 。 眼 跳 (saccade) 数 据 常 用 的 指标 包括 眼 跳 比例 ( 即 所 有 试 次 中 看 向 目标 兴趣 区 的 眼 跳 比 
例 ) 和 了 眼 跳 反 应 时 ( 即 当 目标 词 刺激 出 现 后 , 看 向 目标 兴趣 区 所 需要 的 眼 路 时 长 )。 数 据 中 的 自 
变量 可 以 是 实验 设计 的 组 内 变量 (如 : 实验 条 件 与 控制 条 件 、 上 时 义 名 与 非 蚊 义 句 等 )， 也 可 以 


是 组 间 变 量 ( 如 : 不 同 语言 背景 组 、 


年 龄 组 等 )。 


视觉 情境 范式 的 优势 在 于 所 产 出 的 数据 具有 高 度 的 时 间 精 确 性 , 现 有 的 科研 用 眼 动 仪 可 


以 达到 1000Hz 的 取样 率 ， 即 每 一 毫秒 捕 提 一 次 眼 动 位 置 ， 可 以 提供 准 
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以 兴趣 区 注视 比例 这 一 数据 指标 为 例 , 研究 者 不 仅 可 以 跨 组 对 比 在 某 一 时 间 窗 口内 不 同 条 件 
组 下 注视 比例 的 均值 ， 以 确定 口语 加 工 中 的 茶 一 效应 ; 更 重要 的 是 可 以 探究 效应 出 现 的 时 间 


( 即 注视 比例 在 不 同 条 件 下 开始 产生 显著 区 别 的 时 间 ) 以 及 效应 随 着 时 间 发 展 而 变化 的 曲线 


模式 。 


2.3 利用 时 间 维 度 信 息 进行 数据 分 析 
时 间 上 的 精确 性 是 视觉 情境 范式 数据 的 最 重要 特点 , 如 何 利 用 好 时 间 维 度 信 息 是 该 范式 


数据 分 析 的 关键 。 根 据 利用 时 间 信 


恩 的 方式 ， 可 将 现 有 的 数据 分 析 方 法 归 为 三 类 : (1) 指 定 


时 间 兴 趣 区 内 注视 比例 均值 对 比 (2) 效 应 出 现 、 持 续 的 时 间 进 程 分 析 ; (3) 效 应 随时 间 变 化 


的 曲线 模式 分 析 。 为 了 更 好 地 图 释 三 类 方法 的 应 用 场景 与 分 析 人 逻辑 ， 本 文选 用 了 Allopenna 
等 人 (1998) 研 究 中 的 实验 物体 示意 图 (图 2) 和 注视 比例 数据 图 (图 3) 作 为 示例 (该 研究 的 详细 


图 2 视觉 情境 范式 实验 视觉 刺激 示意 图 。 语 音 指令 为 : beaker* 烧 杯 ”"。 四 个 用 于 测量 的 物体 
分 别 为 : 左 -目标 指 代 物 体 (referent) beaker E” A-W H E] 
上 -韵律 竞争 项 (rhyme) speaker* 扬 声 器 *、 下 -无 关 项 (unrelated) carriage“ ZAJLE”. AEREI: 


羊 竞争 项 (cohorb beetle A Ha”, 


DH 


Allopenna 等 人 (1998)， 已 获 使 用 许可 。 


—@®— Referent (e.g., "beaker") 
| —E— Cohort (e.g., "beetle") 
—*— Rhyme (e.g., "speaker") 
0.8) —— Unrelated (e.g., "carriage") 


〇 注视 比例 
= 2 


Average target offset 
| 目标 词 平均 结束 时 间 
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图 3 使 用 视觉 情境 范式 下 词汇 识别 任务 所 得 数据 示意 图 。 横 轴 : 从 目标 词 开 始 呈 现 后 的 1000 
毫秒 时 间 轴 ; 纵 轴 : 注视 比例 。 四 条 曲线 分 别 代表 看 向 目标 指 代 物 体 (referent) beaker EI 


语音 同 群 竞争 项 (cohort) beetle P E”, 韵律 竞争 项 (hyme) speaker“tHF 48” 无关 项 (unrelated) 


Ed 


carriage“ 婴 儿 车 ”的 注视 比例 。 资 料 来 源 : Allopenna 等 人 (1998)， 已 获 使 用 许可 。 


第 一 类 分 析 方 法 是 分 析 视 觉 情境 范式 数据 最 常用 .最 直观 的 方法 一 一 将 指定 时 间 兴 趣 区 


义 


内 注视 比例 均值 进行 对 比 ， 如 : 对 比 从 目标 词 peake 天 烧杯 ”开始 呈现 到 目标 词 结束 的 约 375 
毫秒 内 听 者 对 图 2 中 几 个 物体 的 注视 比例 。 这 一 分 析 方法 将 注视 比例 、 时 长 或 者 眼 跳 指 标 作 
为 因 变 量 ， 组 内 和 组 间 变 量 作 为 自 变 量 ， 采 用 ttest、ANOVA 、 混 合 效应 模型 (linear 
mixed-effects model) 等 统计 手段 对 比 不 同 物体 之 间或 者 不 同 条 件 组 之 间 注 视 比 例 的 差别 。 相 
比 于 t-test 和 ANOVA， 混 合 效应 模型 是 目前 应 用 最 广 的 分 析 方法 ， 它 可 以 将 受 试 者 之 间 以 
及 试 次 之 间 的 差异 作为 随机 变量 纳入 模型 ， 实 现 对 效应 更 准确 的 模拟 与 测试 (应 用 示例 : 
Gardner et al., 2021; Griiter et al., 2020)。 需 要 注意 的 是 ， 此 类 统计 方法 通常 要 求 数据 符合 正 
态 分 布 ， 而 注视 比例 的 阔 值 范围 在 0 到 1 之 间 ， 一 般 需要 事先 进行 对 数 (log) 转 换 或 者 逻辑 
(logit) 转 换 (to & Knoeferle, 2022)。 分 析 指 定时 间 兴 趣 区 内 注视 比例 均值 是 最 简便 的 视觉 情境 
范式 数据 分 析 方 法 , 适用 于 大 部 分 实验 设计 。 其 主要 劣势 在 于 人 为 设 定 的 时 间 窗 口 降低 了 数 
据 的 时 间 精 度 , 无 法 很 好 地 捕捉 注视 比例 随 着 时 间 变 化 的 趋势 ; 补偿 方法 可 以 是 将 不 同时 间 
兴趣 区 作为 自 变量 加 入 分 析 模型 ， 检 验 时 间 兴 趣 区 这 一 变量 本 身 是 否 显著 影响 注视 比例 。 
第 二 类 方法 是 对 效应 出 现 、 持 续 的 时 间 进 程 进行 分 析 。 此 类 方法 充分 利用 了 视觉 情境 范 
式 精确 的 时 间 进 程 信息 ,可 用 于 探究 某 一 口语 加 工效 应 出 现 的 确切 时 间 。 其 中 , 分 叉 点 分 析 
(divergent point analysis) 将 潜在 效应 出 现 的 时 间 段 再 细 分 为 若干 小 的 时 间 窗 口 ( 如 20 毫秒 )， 
在 每 一 个 小 的 时 间 窗 口内 对 比 检验 两 个 条 件 组 的 注视 比例 是 否 存 在 显著 区 别 , 从 而 找 出 两 组 
注视 比例 曲线 最 早 开 始 出 现 显著 分 叉 的 时 间 点 。 例 如 : 图 3 中 目标 指 代 物体 beaker“ 烧 杯 ” 
的 注视 比例 曲线 与 语音 同 群 竞争 项 beetle“ 甲 虫 ”的 注视 比例 曲线 分 义 点 大 约 在 400 毫秒 左 
右 ， 晚 于 目标 指 代 物体 与 韵律 竞争 项 speaker* 扬 声 器 ”的 注视 比例 分 义 点 ， 而 通过 分 叉 点 分 
析 可 以 统计 计算 出 不 同 曲线 之 间 开 始 显著 分 叉 的 具体 时 间 点 。 

简单 的 分 又 点 分 析 只 能 界定 出 效应 开始 的 时 间 点 (两 个 条 件 下 变化 曲线 的 分 又 点 )， 并 不 
能 检验 分 叉 点 在 时 间 上 的 变化 区 间 , 也 不 能 跨 条 件 组 比较 两 个 分 又 点 是 否 存在 统计 学 意义 上 
的 显著 不 同 。 而 基于 自助 抽样 检验 (bootstrapping) 的 进 阶 分 叉 点 分 析 法 ， 则 可 以 为 每 一 个 分 
叉 时 间 点 提供 置信 区 间 ， 从 而 实现 跨 条 件 组 对 比 (Stone et al., 2021; 应 用 示例 : Corps et al., 
2021)。 进 阶 的 分 义 点 分 析 法 可 为 对 比 研究 不 同 群体 语言 实时 加 工 的 时 间 进 程 提 供 有 效 的 分 
析 工 具 ， 例 如 ， 一 语 者 与 二 语 者 在 语言 加 工 的 某 一 效应 上 (如 : 预测 加 工 ) 可 能 并 不 存在 效应 
量 上 的 差别 ， 但 是 两 类 被 试 者 在 效应 开始 的 时 间 上 可 能 存在 差异 (Kaan & Griiter, 2021)， 采 
这 种 分 析 方 法 就 可 以 有 效 检验 二 语 者 预测 加 工 开 始 的 时 间 是 否 会 显著 地 滞后 于 一 语 者 。 除 


了 分 又 点 分 析 法 ， 基 于 频率 艇 的 置换 检验 法 (cluster-based permutation analysis, Barr et al., 


Éy 


2014) 和 自助 抽样 检验 时 间 序 列 差 别 法 (bootstrapped differences of timeseries, Seedorff et al., 


8 


2018)， 均 可 以 用 于 界定 两 个 条 件 组 数据 出 现 显著 差别 的 时 间 ( 详 见 眼 动 数据 分 析 方 法 综述 : 
Ito & Knoeferle, 2022)。 但 此 类 分 析 方 法 均 无 法 对 不 同 条 件 下 效应 随时 间 变 化 的 趋势 进行 分 
析 ， 要 回答 此 类 问题 需要 借助 第 三 类 方法 分 析 变 化 曲线 。 
第 三 类 方法 主要 针对 视觉 情境 范式 中 效应 随时 间 变 化 的 曲线 模式 进行 分 析 。 其 中 , 生长 
曲线 分 析 法 (growth-curve analysis) 将 不 同 条 件 组 下 关键 兴趣 区 的 注视 比例 随 着 时 间 变 化 的 曲 
线 进 行 模拟 、 分 析 ， 检 验 不 同 条 件 组 下 注视 比例 曲线 变化 的 模式 是 否 有 所 不 同 ， 进 而 检 证 效 
立 是 否 随 着 时 间 发 展 有 所 变化 (Mirman, 2014; Mirman et al., 2008)。 不 同 于 第 一 类 分 析 法 ， 生 
长 曲线 分 析 法 不 仅 包括 了 以 时 间作 为 变量 的 线性 模型 , 还 可 以 在 模型 中 加 入 时 间 变 量 的 二 次 
方 、 三 次 方 ， 以 模拟 注视 比例 随 着 时 间 出 现 曲线 变化 的 模式 :， 如 在 图 3 中 对 语音 同 群 竞争 
项 beetle“ 甲 虫 ”的 注视 比例 出 现 了 呈 抛 物 线 状 先 升 后 降 的 趋势 ， 且 斜率 不 同 于 韵律 竞争 项 
speaker 扬 声 器 "， 这 一 模式 就 可 以 采用 包含 二 次 方 时 间 变 量 的 生长 曲线 模型 进行 分 析 。 在 口 
语 加 工 过 程 中 , 注视 随 着 时 间 的 变化 趋势 常常 并 非 线 性 上 升 或 者 下 降 , 对 变化 曲线 的 模拟 和 
对 比 能 够 更 精确 地 分 析 语 言 理解 的 时 间 发 展 进程 (应 用 示例 : Henry et al., 2022; Koring et al., 
N 2012; Wei et al.，2019)。 需 要 注意 的 是 ， 生 长 曲线 分 析 法 存在 数据 自动 相关 性 问题 
(autocorrelation)， 即 相 邻 的 两 个 时 间 窗 口 在 注视 位 置 上 存在 高 度 相关 性 ， 增 加 了 出 现 统计 学 
一 型 错误 ( 假 阳 性 ) 的 几率 (Huang & Snedeker, 2020)， 因 此 常 需要 与 第 一 类 和 第 二 类 的 分 析 方 
法 相 结合 ， 共 同 验证 效应 。 广 义 加 性 混合 模型 (generalized additive mixed mode]) 分 析 也 可 以 
于 对 非 线 性 的 数据 曲线 进行 模拟 , 通过 薄板 样 条 插值 (thin plate regression splines) 更 灵活 地 
模拟 变化 曲线 , 并 且 减 少 统计 学 上 的 自动 相关 性 , 一 定 程度 上 弥补 了 生长 曲线 分 析 法 的 劣势 
(Porretta et al., 2018). 
3. 视觉 情境 范式 与 口语 加 工 的 时 间 进程 

学 界 早年 关于 语言 加 工时 间 进 程 的 争论 主要 集中 在 加 工 即 时 性 问题 上 。 早 期 实验 主要 采 
词汇 再 认 、 线 索 回 忆 、 自 定 步 速 阅 读 等 任务 ， 得 到 的 证 据 倾 向 于 支持 延迟 整合 加 工 (如 : 


Garnham et al., 1996; Stewart et al., 2000), 即 语言 使 用 者 加 工 语言 会 延迟 到 句子 末尾 再 进行 整 


Ni 


= 


= 


#;(delayed-integration interpretation; Millis & Just, 1994)。 然 而 ， 随 着 眼 动 、 脑 电 事件 相关 电 
位 (ERP) 等 测量 方法 的 推广 ， 精 确 测量 阅读 时 间 、 脑 电信 号 反应 成 为 可 能 ， 越 来 越 多 的 证 据 
支持 语言 加 工 的 即时 性 ， 即 语言 使 用 者 会 随 着 语言 的 输入 即刻 处 理 遇 到 的 信息 (incremental 


在 包含 时 间 变 量 的 生长 曲线 基本 模型 中 (如 : Y = Bo + B1XTime)，8B ,为 截 距 ， 表 示 当 时 间 为 零 时 ( 即 开 
台 时 ) 注视 比例 (Y) 的 数值 ; 斜率 B ;表示 随 着 时 间 的 推移 , 注视 比例 的 变化 趋势 ; 如 将 时 间 的 二 次 方 (Time )、 
三 次 方 (Time ) 加 入 模型 中 , 即 可 以 允许 注视 比例 随 着 时 间 推 移 呈 抛物 线 变 化 一 一 Time 可 以 模拟 有 一 次 趋势 
方向 变化 (如 先 升 后 降 ， 或 先 降 后 升 ) 的 曲线 ， 而 Time 可 以 模拟 含 两 次 方向 变化 的 曲线 。 
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interpretation; Traxler et al., 1997; Cozijn et al., 2011; Koornneef & Van Berkum, 2006)。 对 于 视 


觉 情境 下 的 眼 动 测量 ， 尽 管 从 接收 到 听觉 语言 信号 刺激 到 做 出 眼 动 反应 需要 大 约 200 毫秒 
(Matin et al., 1993; Saslow, 1967)， 使 用 视觉 情境 范式 的 大 量 口 语 实验 中 仍 发 现 了 在 测试 词 开 
始 呈 现 后 、 下 一 词 未 开始 之 前 眼 动 注视 投向 目标 物 的 效应 , 说 明 语 言 使 用 者 对 口语 中 信息 的 
处 理 是 即刻 发 生 的 ( 详 见 3.1~3.5 小 节 )。 

在 即时 性 加 工 被 广泛 认可 的 基础 之 上 , 近年 来 语言 加 工时 间 进 程 的 讨论 主要 聚焦 于 语言 
使 用 者 何 时 利用 语 境 信息 来 理解 语言 。 语言 使 用 者 可 能 在 测试 词 出 现 的 同时 , 即时 地 结合 测 
试 词 的 语义 与 前 文 语 境 进行 加 工 ; 也 可 能 在 测试 词 出 现 之 前 、 加 工 语 境 信息 的 过 程 中 ， 对 测 
试 词 的 语音 、 语 义 甚至 所 处 的 句法 结构 提前 进行 预测 性 加 工 (expectation-based account; Levy, 
2008)。 在 对 预测 效应 的 检测 上 ， 视 觉 情 境 范式 相对 于 阅读 范式 、ERP 测量 等 方法 具有 明显 
优势 (Huettig & Guerra, 2019)。 大 部 分 采用 后 者 的 研究 只 能 在 测试 词 出 现 的 位 置 捕捉 到 由 测 
试 词 语义 与 语 境 信息 一 致 性 所 产生 的 效应 ; 而 视觉 情境 范式 可 以 在 关键 词 出 现 之 前 , 更 早 地 
检验 到 语 境 对 受 试 者 在 视觉 场景 中 注视 方式 的 影响 ， 为 口语 的 预测 性 加 工 提供 了 关键 性 证 
据 。 下 文 将 重点 分 析 视 觉 情 境 范 式 在 语音 、 语 义 、 句 法 、 语 篇 与 语 用 等 不 同 层面 如 何 回答 语 
言 加 工 的 时 间 进 程 问题 。 需 要 说 明 的 是 ,不 同 层面 的 信息 在 口语 加 工 中 并 非 独立 ， 而 是 会 相 
互 影响 ( 见 综述 : Kuperberg & Jaeger, 2016); 而 本 文 出 于 利于 分 类 总 结 的 考虑 ， 将 各 个 层面 
单列 综述 。 

3.1 词汇 识别 与 语音 预测 
视觉 情境 范式 中 ， 听 者 听 到 一 个 词 就 会 在 视觉 范畴 内 寻找 指 代 的 物体 。 基 于 这 一 特点 ， 
视觉 情境 范式 可 以 用 来 检验 词汇 的 识别 过 程 ， 并 且 探 究 听 者 如 何 利 用 已 有 信息 预测 语音 形 
式 。Allopenna 等 人 (1998) 利 用 该 范式 检验 了 在 口语 词汇 的 语音 识别 过 程 中 ， 语 音 输入 与 词 
汇 表征 的 匹配 过 程 是 否 是 渐进 发 生 的 。 如 果 这 个 匹配 过 程 在 时 间 上 是 渐进 的 , 那么 可 以 预测 
目标 指 代 物 体 peake 关 烧杯 ”的 语音 同 群 竞争 项 peete“ 甲 虫 "， 会 比 beaker 的 韵律 竞争 项 
speaker 扬 声 器 "有 更 强 的 干扰 效应 ( 见 图 2)， 因 为 语音 上 beetle 与 beaker 在 词语 的 开头 位 置 
AER, M speaker 与 beaker 的 重 闪 发 生 在 后 期 。Allopenna 等 人 的 视觉 情境 范式 眼 动 实验 
结果 验证 了 这 一 假设 : 注视 目标 物体 “烧杯 ”的 比例 和 注视 “甲虫 ”的 比例 在 语音 加 工 的 早 
期 都 出 现 了 上 升 ( 见 图 3)， 而 对 “扬声器 ”这 一 物体 的 注视 比例 则 是 在 词 加工 的 较 晚 时 间 才 
出 现 上 升 , 而 且 注 视 比 例 上 升 的 幅度 也 相对 比较 小 。 视觉 情境 范式 提供 的 眼 动 注视 比例 数据 
有 效 揭示 了 词汇 识别 中 语音 输入 和 词汇 表征 的 匹配 过 程 。 


在 语言 使 用 者 能 否 通过 语 境 信息 预测 即将 出 现 词语 的 语音 信息 这 个 问题 上 ,已 有 的 ERP 
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研究 结果 存在 很 大 分 歧 ， 并 未 能 得 到 稳定 可 复制 的 语音 预测 效应 (DeLong et al., 2005; 


Nieuwland et al.，2018)， 而 视觉 情境 范式 为 探讨 语音 预测 问题 提供 了 有 力 的 证 据 。Ito 等 人 


(2018) 采 用 视觉 情境 范式 的 眼 动 实验 , 发 现在 高 度 可 预测 的 语 境 下 (例如 :The tourists expected 


rain when the sun went behind the...)， 听 者 不 仪 会 预测 性 地 注视 目标 物体 (cloud“ 云 ”))， 还 会 更 
多 地 注视 目标 物体 的 语音 竞争 项 (与 cloud 共享 开头 音节 的 clown H”), 这 一 发 现 证 实 了 语 
音 形式 预测 的 存在 。 更 青 境 范 式 下 这 一 预测 效应 在 目标 词 出 现 前 的 500 
毫秒 就 已 经 出 现 ， 充 分 证 明 语言 加 工 中 对 语音 形式 的 预测 是 主动 的 (proactive)， 相 比 于 一 些 
其 他 范式 仅 在 目标 词 位 置 发 现 整合 效应 的 结果 , 视觉 情境 范式 为 语言 预测 提供 了 更 为 直接 的 
证 据 。 此 外 ,视觉 情境 范式 还 为 研究 语音 预测 机 制 提供 了 实证 依据 : 语音 预测 与 语义 预测 
样 , 其 背后 机 制 都 是 基于 关联 一 一 通过 加 工 语 境 , 语言 使 用 者 在 心理 词汇 中 激活 了 相应 的 语 
义 和 语 音 形式 ， 从 而 对 即将 出 现 的 词语 形成 预期 Kukona，2020; 语音 预测 与 语义 预测 对 比 
见 : Karimi et al., 2019)。 值 得 注意 的 是 ， 使 用 西方 语言 的 语音 预测 研究 存在 一 个 无 法 避免 的 
问题 ， 即 目标 词 ( 如 cloud) 与 其 语音 竞争 项 (如 clowr) 不 仅 在 语音 上 有 重合 ， 在 正字 法 信息 上 
FEE. Li 等 人 (2022) 使 用 语音 与 正字 法 信息 相对 分 离 的 汉语 , 通过 视觉 情境 范式 实验 ， 
也 发 现 了 类 似 的 语音 形式 预测 ， 验 证 了 语音 预测 的 普遍 性 。 

3.2 句法 加 工 的 解 歧 过 程 

x 视觉 情境 范式 对 于 句法 加 工时 间 进 程 研 究 的 贡献 主要 在 两 个 方面 。 首 先 ,该 范式 可 以 用 
于 分 析 歧 义 句 的 解 歧 过 程 ， 如 花园 路 径 句 (garden-path sentences). Tanenhaus 等 人 (1995) 首 次 
采用 视觉 情境 范式 探究 了 存在 结构 歧义 的 英文 句子 加 工 过 程 , 以 及 视觉 场景 对 句子 解 收 的 影 
响 。 如 Put the apple on the towel in the box 在 in the box 出 现 前 存在 结构 歧义 : on the towel 既 
可 以 是 动作 put 的 方向 ， 又 可 以 是 the apple 的 地 点 限定 语 。 采 用 视觉 情境 范式 眼 动人 妃 踪 的 实 
验方 法 ，Tanenhaus 等 人 发 现在 视觉 场景 中 只 有 一 个 苹果 的 时 候 ， 听 者 会 更 倾向 于 把 on the 
towel 解读 为 动作 的 方向 ( 眼 动 注视 从 苹果 直接 移 向 毛巾 );， 而 当 视 觉 场景 中 有 两 个 苹果 时 ， 
听 者 则 更 倾向 于 将 其 解读 为 the apple 的 地 点 限定 语 而 非 动作 方向 (在 锁定 毛巾 上 的 苹果 之 后 
直接 看 向 真正 的 目标 地 点 一 一 the box 箱子 )。 

其 次 ， 视 觉 情境 范式 为 句法 加 工 中 不 同 层 面 信息 何 时 被 加 工 这 一 问题 提供 了 新 的 证 据 。 
早期 的 双 阶 段 理 论 (two-stage account) 认 为 在 句子 理解 过 程 中 , 句法 结构 分 析 要 先 于 其 他 非 结 
构 性 信息 (包括 词汇 语义 、 志 界 知 识 、 语 篇 等 ) 的 加 工 (Ginitial syntactic analysis, Frazier, 1987); 
基于 约束 的 语言 加 工 理论 (constraint-based accounb 则 认为 句子 加 工 涉及 到 多 个 层面 信息 的 
< 同 限制 (Trueswell et al., 1994), 这 些 限制 会 在 句子 加 工 的 早期 就 对 句法 结构 分 析 产 生 影 响 。 


NR 
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要 的 是 ， 在 视觉 
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视觉 情境 范式 实验 研究 支持 了 后 者 的 假说 。 如 : Snedeker 和 Trueswell (2004) 研 究 了 具有 歧 


义 的 介词 短语 结构 (Choose the cow with the stick vs Tickle the pig with the fan). With the 
stick/fan 既 可 以 是 宾语 的 限定 成 分 ， 又 可 以 是 完成 动作 所 借助 的 工具 。 他 们 发 现 ， 视 觉 场 景 
中 的 信息 (物体 的 个 数 )、 动 词 的 偏向 (偏向 限定 语 解 读 的 动词 cxoose“ 选 择 ”vs 偏向 动作 工具 
解读 的 动词 tickle“ 找 ") 都 会 在 句子 加 工 的 早期 对 歧义 句 的 句法 结构 的 分 析 产 生 影响 ， 体 现在 
物体 个 数 、 动 词 偏向 不 同 的 情况 下 , 听 者 会 看 向 不 同 的 目标 对 象 。 此 外 , Chambers 等 人 (2002， 
2004) 的 研究 还 发 现 ， 与 视觉 场景 中 物体 形态 、 大 小 、 特 质 相 关 的 世界 知识 信息 也 会 影响 名 
法 结构 的 分 析 , 并 且 这 些 影响 都 发 生 在 句子 加 工 的 最 开始 阶段 , 驶 斥 了 句法 结构 分 析 为 先 的 
理论 性 假设 。 
3.3 语义 的 预测 性 加 工 

视觉 情境 范式 对 语义 加 工 研究 的 一 大 贡献 是 , 揭示 了 语义 加 工 不 仅 是 即时 的 , 在 很 多 情 


况 下 其 至 是 具有 预测 性 的 (Altmann & Kamide, 1999; Kamide et al., 2003; 理论 综述 见 : 


Pickering & Gambi, 2018)。Altmann 和 Kamide (1999) 最 早 使 用 视觉 情境 范式 ， 研 究 了 动词 - 
论 元 整合 的 时 间 进 程 : 与 无 关 动 词 move“ 移 动 * 相 比 , 听 者 在 听 到 the boy will eat… 的 动词 eat 
“ 吃 ” 时 , 会 更 早 地 注视 到 视觉 场景 中 的 蛋糕 这 一 物体 上 。 这 说 明 动 词 的 语义 信息 ( 即 eart” 
需要 搭配 可 以 吃 的 论 元 ) 会 帮助 听 者 预测 论 元 的 指 代 对 象 。Kamide 等 人 (2003) 的 后 续 研 究 总 
结 了 语义 加 工 的 主要 特征 : (1) 动 词 与 主语 的 组 合共 同 促进 了 语义 预测 , 例如 主语 the man“ 
人 ”与 动词 ride“ 骑 ”的 组 合 会 预测 高 可 能 性 宾语 motorbike“ 摩 托 车 ”，(2) 除 了 动词 之 外 ， 附 着 
于 论 元 的 格 标记 也 会 激活 预测 加 工 , 如 在 动词 后 置 的 日 语 中 , 听 者 在 动词 还 未 出 现 之 前 也 可 
以 通过 格 标记 提前 预测 即将 出 现 的 论 元 指 代 对 象 。 
使 用 视觉 情境 范式 对 语义 加 工 的 研究 不 仅 限于 动词 - 论 元 结构 。Chow 和 Chen (2020) 使 
该 范式 研究 了 汉语 量词 信息 与 语 境 中 世界 知识 的 整合 加 工 , 发 现 汉 语 使 用 者 可 以 根据 语 境 
中 的 世界 知识 ， 在 加 工 的 早期 对 将 要 出 现 的 名 词 形成 预期 ， 而 这 种 预期 会 受到 量词 的 影响 ， 
在 加 工 后 期 进一步 修正 。 此 外 ，Griiter 等 人 (2020) 对 一 语 者 和 二 语 者 量词 加 工 的 研究 发 现 ， 
一 语 者 与 二 语 者 都 对 量词 包含 的 语法 搭配 信息 敏感 ， 并且 会 利用 该 信息 进行 预测 性 加 工 。 但 
是 ， 二 语 者 在 加 工 中 会 更 加 依赖 语义 信息 (如 : 量词 “条 ”会 搭配 长 条 状 物体 )， 表 现 为 当 视 觉 
场景 中 出 现 不 符合 量词 语法 搭配 、 但 符合 长 条 状语 义 的 干扰 物 时 , 二 语 者 会 更 多 地 注视 干扰 
物 。 
34 语 篇 层面 加 工 

视觉 情境 范式 可 以 用 于 探究 语 篇 理解 的 两 个 重要 议题 一 一 指 代 关系 与 连接 关系 。 首 先 ， 
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视觉 情境 范式 下 的 眼 动 追踪 可 以 有 效 检验 代词 与 先行 词 之 间 指 代 关系 的 建立 过 程 。 一 般 认 
为 ， 当 听 者 听 到 与 前 文 语 篇 有 共同 指 代 关 系 的 代词 、 并 注视 某 相 关 物 体 时 ， 可 以 说 明 此 物体 
被 认为 是 潜在 的 目标 指 代 物 (Runner et al., 2003)。 基 于 这 一 机 制 ， 研 究 者 利用 视觉 情境 范式 
探讨 了 诸多 指 代 关 系 加 工 中 的 时 间 进 程 问题 。 例 如 ，Arnold 等 人 (2000) 最 时 发现 性 别 线索 和 
指 代 对 象 被 提 及 的 顺序 都 对 指 代 消 解 有 即时 性 影响 : 听 者 可 以 在 加 工 早期 利用 不 同性 的 语言 
标记 形式 (如 : 英语 单数 第 三 人 称 he 或 者 she) 锁 定 指 代 的 目标 ;同时 ， 句 中 第 一 位 提 及 的 人 
物 (如 : SVO 语序 句子 中 的 主语 ) 会 更 容易 被 解读 为 指 代 对 象 。 在 针对 隐 仿 因果 对 代词 消解 区 
响 的 研究 中 ，Pyykk5nen 和 Jarvikivi (2010) 发 现 , 隐 含 因果 效应 在 动词 之 后 就 已 经 立刻 显现 ， 
听 者 听 到 动词 后 会 更 多 地 注视 动词 所 偏向 的 指 代 对 象 ， 如 : 在 John frightened Bill because... 
中 ， 动 词 广 gjprex 惊 吓 " 更 偏向 第 一 个 人 物 ， 所 以 当 听 者 听 到 frightened 时 ， 会 更 多 地 注视 
John; 而 在 John feared Bill because... 中 ， 动词 feared “害怕” 则 更 偏向 第 二 个 人 物 ， 当 动词 出 
现时 ， 听 者 更 多 注视 Bil1。 这 一 发 现 证 明了 指 代 加 工 是 即时 发 生 的 ， 甚 至 上 共有 预测 性 ， 而 非 
延迟 整合 ( 另 见 : Cozijn et al., 2011)。 

视觉 情境 范式 也 为 连接 关系 在 实时 语言 理解 中 的 建立 提供 了 丰富 的 实证 证 据 。Wei 等 人 
(2019) 采 用 视觉 情境 范式 探究 了 主观 因果 关系 (论点 -论据 ) 和 客观 因果 关系 (原因 -结果 ) 的 加 
工 以 及 汉语 连词 在 其 中 的 作用 。 研 究 发 现 ， 相 较 于 客观 因果 关系 连词 “因而 ”， 当 听 者 听 到 标 
记 主 观 因 果 关 系 的 连词 “可 见 " 时 ， 相 对 于 客观 因果 关系 连词 “因而 ”， 他 们 会 更 多 地 注视 视觉 
场景 中 的 说 话 人 。 这 表明 主观 与 客观 因果 关系 的 加 工 可 能 在 确认 、 追 踊 说 话 人 的 过 程 上 有 所 
不 同 , 而 且 追 踪 说 话 人 的 过 程 是 随 着 主观 因果 连词 的 输入 而 即时 发 生 的 ,实验 证 据 证 明了 语 
篇 加 工 的 即时 性 。Mak 等 人 (2017) 通 过 在 视觉 场景 中 提供 两 个 备 选 的 指 代 对 象 ， 并 追踪 听 者 
对 两 个 指 代 对 象 的 注视 轨迹 ,探究 俄语 的 两 个 连词 在 连接 关系 建立 中 的 作用 。 研究 发 现 ， 连 
词 减 而且”( 用 于 标记 延续 关系 , 连词 前 后 两 个 从 句 的 主语 一 致 ) 和 连词 a“ 而 且 / 但 是 (用 于 标 
记 转 变 关 系 ， 前 后 两 个 从 句 是 不 同 的 主语 ) 可 以 帮助 单 语 儿童 和 双语 儿童 提前 预测 第 二 个 从 
句 的 主语 是 否 转 变 ， 印 证 了 在 口语 语 篇 理解 中 存在 的 预测 性 加 工 现 象 。 
3.5 语 用 信息 的 提取 与 加 工 

语 用 隐 含 义 (pragmatic implicature) 何 时 被 加 工 、 这 一 过 程 是 否 先 于 语义 分 析 是 语 用 学 领 


域 关注 的 重要 议题 。 字 面 义 先行 假设 (literal-first hypothesis; Huang & Snedeker, 2009, 2011) 认 
为 对 等 级 含义 词 字 面 语义 (如 some“ 一 些 ” 的 语义 解读 应 为 : 一 些 -同时 可 以 是 全 部 ) 的 加 工 先 
于 该 词 的 语 用 隐 含 义 ( 一 些 -但 并 非 全 部 )，Levinson (2000) 认 为 语 用 隐 含 义 是 默认 自动 加 工 
的 ， 基 于 约束 的 加 工 理论 则 认为 语 用 隐 含 义 是 否 优先 激活 取决 于 是 否 具有 充足 的 语 境 支持 
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(Degen & Tanenhaus, 2015, 2016). 


视觉 情境 范式 是 对 比 语义 和 语 用 信息 加 工时 间 线 的 重要 实验 手段 。Huang 和 Snedeker 
(2011) 的 视觉 情境 范式 眼 动 实验 发 现 ， 听 者 在 加 工 some“ 一 些 ”" 时 会 先 注视 与 some 语义 解读 
(一 些 - 同 时 可 以 是 全 部 ) 相 符 的 对 象 ， 而 利用 some“ 一 些 ” 的 语 用 隐 含 义 (一 些 -但 并 非 全 部 ) 来 
消除 歧义 、 排 除 alf* 全 部 ”的 指 代 对 象 这 一 过 程 要 晚 于 some 的 语义 加 工 ( 约 晚 800 毫秒 ).Degen 
和 Tanenhaus (2016) 的 研究 则 发 现 ， 语 用 隐 含 义 加 工 延 迟 的 现象 仅仅 出 现在 当 数字 词 也 作为 
指令 出 现 的 情况 下 ; 而 当 数 字 词 不 存在 时 ，some 的 语 用 隐 含义 加 工 并 不 会 晚 于 字面 语义 含 
义 的 加 工 。Gardner 等 人 (2021) 改 进 了 Huang 和 Snedeker (2011) 实 验 中 的 视觉 物体 个 数 使 其 
更 加 符合 some 的 概念 , 他 们 发 现 当 有 足够 的 语 境 支持 时 , 语 用 隐 含 义 的 加 工 是 迅速 即时 的 ， 
即 听 者 可 以 运用 some 的 语 用 隐 含 义 快速 锁定 目标 对 象 。 此 外 ， 语 言 使 用 者 对 语 用 信息 的 加 
工 还 很 大 程度 受到 说 话 人 可 信和 度 的 影响 一 一 面 对 可 信和 度 高 的 说 话 人 , 受 试 者 可 以 较 早 地 利用 
O 等 级 形容 词 的 语 用 含义 锁定 目标 物体 ， 而 面 对 可 信 度 低 的 说 话 人 , 则 未 出 现 早 期 的 语 用 加 工 


效应 (Gardner et al., 2021). 


4. 视觉 情境 范式 的 主要 贡献 、 局 限 性 与 研究 展望 
眼 动 视觉 情境 范式 为 研究 语言 理解 提供 了 两 项 重要 信息 : 一 是 视觉 维度 的 注视 指标 ; 二 
是 精确 的 时 间 测 量 ,前 者 为 心理 语言 学 、 认 知心 理学 等 领域 的 实验 设计 提供 了 丰富 的 可 能 性 ; 
而 精确 的 时 间 测 量 ， 为 语音 、 词 汇 、 名 法、 语义 、 语 篇 、 语 用 等 各 个 层面 的 口语 加 工 提供 了 
准确 的 时 间 进 程 信息 ， 极 大 地 拓展 了 语言 理解 的 相关 理论 。 两 者 结合 ， 可 以 有 效 反映 在 接收 
到 口语 信息 输入 时 , 听 者 在 视觉 场景 中 的 注视 位 置 如 何 随 着 时 间 变 化 , 进而 为 语言 理解 中 的 
© 一 项 重要 议题 一 一 口语 加 工 的 时 间 进 程 提 供 了 直接 证 据 。 视 觉 情境 范式 的 实验 研究 通过 分 析 
高 时 间 敏 感性 的 眼 动 测量 数据 ， 发 现 语言 各 个 层面 的 加 工 都 呈现 出 即时 性 甚至 预测 性 的 特 
点 , 这 与 一 些 早期 研究 中 语言 延 时 整合 的 发 现 不 同 , 说 明 语言 加 工时 间 进 程 的 研究 结果 与 所 
采用 的 方法 密 不 可 分 。 此 外 , 视觉 情境 范式 主要 依赖 听力 任务 , 并 不 需要 受 试 者 具有 完整 的 
识字 阅读 能 力 , 可 以 用 来 考察 低龄 儿童 、 二 语 学 习 者 、 特殊 语言 障碍 人 群 的 语言 加 工 过 程 ( 研 
究 示 例 见 : Canseco-Gonzalez et al., 2010; McMurray et al., 2010; Weber & Cutler, 2004). 


视觉 情境 范式 的 主要 局 限 性 之 一 在 于 无 法 提供 加 工时 长 的 数据 , 因此 不 能 解答 语言 理解 
Fl 


加 难 的 相关 问题 (Salverda & Tanenhaus, 2018)。 而 且 视 觉 情 境 范式 实验 只 能 在 视觉 空间 
中 呈现 数目 有 限 的 静态 物体 ,这 也 与 日 常 语 言 理 解 的 复杂 视觉 环境 有 所 区 别 。 真 实 的 语言 理 


解 环境 可 能 包括 更 多 的 物体 以 及 动态 的 动作 、 事 件 等 , 这 也 导致 了 该 范式 获得 的 结果 在 可 推 
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广 性 上 有 一 定局 限 (Huettig et al., 2011)。 此 外 ， 在 只 呈现 有 限 数目 物体 的 实验 环境 下 ， 听 者 
可 能 会 提前 对 语言 输入 形成 一 定 的 预期 , 并 策略 性 地 注视 某 些 物体 , 因此 眼 动 注视 轨迹 可 能 
并 不 完全 反映 语言 加 工 的 过 程 (Henderson & Ferreira，2004)。 对 于 这 点 质疑 ，Dahan 和 
Tanenhaus (2004) 根 据 其 在 词汇 识别 上 的 研究 提出 了 不 同意 见 ， 他 们 发 现 词 频 对 词汇 识别 的 
影响 效应 并 不 会 受到 视觉 空间 中 是 否 存在 竞争 项 以 及 竞争 项 数目 的 影响 , 由 此 推断 在 视觉 空 
间 中 提供 有 限 数目 的 物体 这 一 设置 并 不 会 影响 视觉 情境 范式 的 有 效 性 。 

视觉 情境 范式 的 眼 动 研究 仍 有 很 大 的 发 展 空间 。 首先 , 尽管 连接 假设 理论 中 所 提出 的 关 
于 视觉 信息 和 语言 信息 的 理解 过 程 假设 已 经 被 大 量 实证 结果 所 证 实 , 任务 目标 对 语言 加 工 的 
重要 作用 仍然 有 待 进 一 步 探 究 。 对 比 不 同 任务 目标 下 ,语言 的 加 工 过 程 如 何 随 着 时 间 发 展 ， 
将 是 未 来 视觉 情境 范式 眼 动 研究 的 方向 之 一 。 近 年 来 ， 眼 动 研究 也 开始 使 用 三 维 虚 拟 现 实 
(VR) 技 术 ， 这 一 技术 创新 可 以 高 度 还 原 自然 的 语言 交流 场景 ， 同 时 保持 对 实验 设置 的 精确 
空 制 。 一 些 利用 VR 技术 的 视觉 情境 范式 眼 动 实验 , 成 功 复 现 了 语言 加 工 中 的 一 些 经 典 结果 ， 
[预测 性 语言 加 工 (Eichert et al., 2018; Heyselaar et al., 2020)。 这 类 技术 改进 不 仅 提高 了 视觉 
青 境 范 式 的 生态 效 度 , 还 可 以 用 于 检验 在 接近 真实 语言 使 用 环境 时 , 影响 语言 加 工 过 程 的 诸 
多 因素 。 理论 和 技术 的 创新 都 为 更 准确 有 效 地 收集 解读 眼 动 数据 、 探索 语言 加 工 提 供 了 新 的 
契机 与 更 多 的 可 能 性 。 
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Visual world paradigm reveals the time course of spoken 


language processing 


Yipu WEI School of Chinese as a Second Language, Peking University 


Abstract: The visual world paradigm (VWP) assesses real-time language processing by tracking 
and measuring eye movements in visual contexts. Linking hypotheses, such as the coordinated 
interplay account and the goal-based linking hypothesis, establish the link between eye 
movements and the cognitive processes of language comprehension. Time sensitivity is 
characteristic of the data generated by this paradigm. Analytical methods include the analysis of 
fixation proportions within time windows, divergence point analysis and growth-curve analysis, 
etc. Studies using the VWP provide important evidence for speech and lexical recognition, 
syntactic parsing, semantic integration, and the processing of discourse and pragmatic 
information. 
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